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摘要 : 【 目的 】 利 用 用 户 间 信任 关系 改进 协同 过 滤 推 荐 中 用 户 相 似 性 计算 精度 ， 即 在 目标 用 户 没 有 相似 用 户 的 前 
提 下 ,从 其 信任 用 户 中 选择 信任 值 高 的 作为 相似 用 户 ,进而 提高 相似 用 户 聚 类 效果 , 提高 推荐 质量 , 并 有 效 缓解 
协同 过 滤 推 荐 稀疏 性 和 冷 启 动 问题 。[ 方法 】 筛 选 信任 用 户 作 为 相似 用 户 ; 根据 选择 的 信任 用 户 和 目标 用 户 形成 


一 个 项 目的 评分 集 , 并 对 目标 用 户 未 评价 过 的 项 目 进行 评分 估算 (根据 信任 用 户 评分 进行 简单 的 评分 计算 ); 将 用 


户 间 的 信任 关系 依据 方差 大 小 进行 量化 , 形成 一 个 调节 因子 。 本 文 的 创新 点 就 在 于 调节 因子 的 计算 ， 并 将 调节 因 
子 纳入 用 户 相似 性 计算 , 形成 相似 性 用 户 聚 类 徐 , 在 此 基础 上 在 相似 用 户 之 间 进 行 交 叉 推 荐 。【 结果 】 通过 平均 
绝对 误差 指标 进行 实验 评价 , 结果 表明 基于 信任 关系 的 协同 过 滤 推荐 方法 相 比 传统 协同 过 滤 , 在 推荐 精度 上 更 
加 准确 , 并 同时 有 效 缓解 了 冷 启 动 和 稀 琉 性 问题 。[ 局 限 】 本 文 提出 的 方法 仅 在 具有 信任 关系 的 一 个 算 例 上 进行 
实验 测试 , 需 在 其 他 数据 集 和 真实 应 用 场景 下 进一步 检验 。[ 结论 ] 用户 间 信任 关系 蕴涵 非常 有 价值 的 信息 ,对 
用 户 信 任 关系 进行 量化 ,并 纳入 用 户 相 似 性 计算 , 在 此 基础 上 实施 协同 过 滤 推 荐 ,对 缓解 冷 启动 与 稀 玻 性 问题 


具有 较 好 的 理论 和 实践 意义 。 
关键 词 : 电子 商务 推荐 ”用 户 信任 ”协同 过 滤 
分 类 号 : TP301.6 
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推荐 系统 (Recommender System，RS) 是 指 根据 用 
户 的 兴趣 偏好 ,推荐 用 户 感 兴趣 的 对 象 , 也 称 个 性 化 
推荐 系统 。 

提供 高 质量 的 建议 对 于 电子 商务 系统 帮助 用 户 进 
行 选择 是 很 重要 的 。 协 同 过 滤 是 一 种 被 广泛 接受 的 技 
术 方 法 , 基于 相似 性 ,生成 用 户 的 喜好 , 然而 , CRA 
一 些 固有 的 问题 ， 如 数据 稀 玻 问题 和 冷 启 动 问题 。 为 
了 解决 这 些 问题 , 笔者 提出 一 种 新 的 方法 ， 即 将 信任 
言 息 合并 到 相似 用 户 的 筛选 中 , 具体 来 说 , 根据 目标 
用 户 的 信任 邻居 的 评分 或 偏好 推断 目标 用 户 的 评分 和 
扁 好 (1 站。 此 外 ,合并 评级 的 质量 是 由 一 个 调节 因子 判 


m} 


定 的 ,这 也 是 本 文 的 创新 点 ， 对 推荐 技术 的 后 续 发 展 
有 非常 大 的 积极 作用 。 


2 研究 背景 


随 着 电子 商务 的 日 益 成 熟 , 推荐 系统 的 发 展 也 越 
来 越 丰富 , 适应 不 同形 式 、 不 同行 业 、 不 同 场景 下 的 
推荐 系统 特点 更 加 鲜明 。 余力 等 "根据 推荐 技术 分 类 ， 
将 推荐 系统 主要 分 为 6 种 : 协同 过 滤 推 荐 、 基 于 内 容 
推荐 、 基 于 人 口 统计 信息 推荐 、 基 于 效用 推荐 、 基 于 
知识 推荐 和 基于 规则 推荐 , 并 对 以 上 6 种 推荐 技术 进 
行 了 评析 。 

刘建国 等 中 则 在 此 基础 上 提出 混合 推荐 算法 , 在 协 
同 过 滤 系 统 中 加 入 基于 内 容 的 算法 ， 即 利用 用 户 的 配置 
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文件 进行 传统 的 协同 过 滤 计 算 。 用 户 的 相似 度 通 过 基于 
内 容 的 配置 文件 计算 而 得 ， 而 非 通过 简单 的 用 户 的 评分 ， 
这 种 方法 可 以 克服 协同 过 滤 系 统 中 的 稀 玻 性 问题 。 

邓 爱 林 等 5 针对 用 户 评分 数据 极端 稀 玻 情况 下 传 
统 相似 性 度量 方法 的 不 足 ， 提 出 一 种 基于 项 目 评分 预 
测 的 协同 过 滤 推 荐 算法 , 根据 项 目 之 间 的 相似 性 初步 
预测 用 户 对 未 评分 项 目的 评分 , 在 此 基础 上 ,采用 一 
种 新 颖 的 相似 性 度量 方法 计算 目标 用 户 的 最 近邻 居 。 
该 算法 有 效 地 解决 了 用 户 评分 数据 极端 稀 玻 情况 下 传 
统 相 似 性 度量 方法 存在 的 问题 , 显著 地 提高 推荐 系统 
的 推荐 质量 。 

结合 信任 的 推荐 系统 可 以 有 效 地 缓解 传统 协同 过 
滤 算 法 中 存在 的 数据 稀 琉 问题 ， 并 能 给 每 个 用 户 提供 
可 信 且 准确 的 推荐 。 龙 宇 等 中 在 此 基础 上 针对 不 同 用 
户 采 用 不 同 推荐 模式 查找 推荐 群体 ， 以 做 出 更 具 个 性 化 
的 推荐 。 人 研究 了 微观 层次 上 的 节点 特性 ， 引 入 兴趣 的 概 
念 , 验证 被 推荐 者 的 节点 特性 对 于 推荐 结果 的 影响 。 

目前 基于 信任 的 推荐 算法 都 是 单一 的 信任 模型 。 
邹 本 友 等 中 提出 一 种 基于 主题 的 张 量 分 解 的 用 户 信任 
推荐 算法 ,用 来 挖掘 用 户 在 进行 选择 时 对 不 同 朋友 的 
信任 程度 。 结 果 表 明基 于 主题 的 用 户 信任 推荐 算法 比 
现 有 算法 具有 更 好 的 准确 性 , 并 且 增 量 更 新 的 推荐 算 
法 可 以 大 幅度 提高 推荐 算法 的 准确 度 。 

推荐 算法 的 不 断 创新 是 为 了 解决 协同 过 滤 推 荐 技 
术 中 两 个 比较 突出 的 问题 ， 即 稀 跑 问题 和 冷 启 动 问 
题 。 稀 琉 问 题 是 指 有 的 用 户 参 与 的 互动 活动 较 少 , 参 
与 评价 的 项 目 很 少 , 这 就 导致 该 用 户 的 数据 信息 很 少 , 
并 且 该 用 户 的 相似 用 户 也 会 很 少 , 所 以 在 对 该 用 户 进 
行 协同 推荐 时 准确 度 就 会 降低 。 冷 启动 问题 指 新 用 户 
还 没有 参与 过 任何 一 个 项 目的 评分 , 或 者 新 晋 的 项 目 
还 没有 被 任何 一 个 用 户 评价 过 。 因 为 这 两 个 问题 的 存 
在 , 使 得 协同 过 滤 推 荐 的 结果 准确 率 有 所 降低 。 
Guo 等 器 提 出 将 一 些 其 他 信息 添加 到 协同 过 滤 技 术 
中 , 这 种 信息 包括 亲密 关系 、 会 员 身 份 和 社会 信任 ， 以 
更 好 地 选择 目标 用 户 的 相似 用 户 或 信任 用 户 , 提高 推 
荐 的 准确 度 ， 其 认为 信任 比 前 两 个 因素 要 更 有 可 信和 度 
和 说 服 力 。 该 方法 可 以 同时 有 效 缓解 稀 朴 问题 和 冷 启 
动 问题 。Ma 等 09 提 出 一 种 基于 信任 和 不 信任 聚 类 的 
协同 过 滤 推 荐 方法 。 基 于 SVD 符号 的 聚 类 算法 处 理 信 
任 和 不 信任 关系 矩阵 ， 以 发 现 信任 社区 ; 并 提出 一 种 
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稀 玻 的 等 级 补 码 算 法 来 产生 密集 的 用 户 评级 分 布 , 可 
以 在 很 大 程度 上 缓解 稀疏 和 冷 启动 问题 .Jia 等 上 提出 
一 种 基于 多 维 信任 模型 的 强大 的 协同 过 滤 推 荐 算法 。 
从 三 个 方面 衡量 用 户 评 级 的 可 信 度 : 项 目 推荐 的 可 靠 
性 、 评 级 相似 性 和 用 户 的 可 信和 度 ; 结合 信任 计算 模型 
和 传统 协同 过 滤 方 法 , 选择 可 靠 的 邻居 集 , 为 目标 用 户 
生成 推荐 ; 使 用 MovieLens 数据 集 从 推荐 精度 和 准确 
性 两 方面 验证 新 算法 的 性 能 .Xu 等 5 提出 一 种 基于 分 
类 和 用 户 信任 的 改进 算法 。 根 据 不 同 项 目的 评分 , 对 
于 每 个 类 别 , 它 评估 每 个 用 户 对 该 类 别 的 可 信 程度 ， 
并 加 权 计 算 用 户 的 评分 。 最 后 , 该 算法 探讨 用 户 之 间 
的 相似 性 ,找到 最 近邻 居 ， 并 在 每 个 类 别 内 提出 建议 。 
改进 的 算法 优 于 传统 的 协同 过 滤 算 法 , 提高 了 推荐 的 
准确 性 。Du 等 05 引入 社会 学 领域 的 信任 关系 计算 , 代 
替 传统 的 相似 度 计 算 方 法 , 将 信任 度 集成 为 最 近邻 选 
择 。 信 任 网 络 由 不 同 的 路 径 长 度 的 扩展 构成 , 用 户 的 
信任 值 可 以 通过 信任 传递 规则 获得 。 

本 文 主要 围绕 在 协同 过 滤 的 方法 中 添加 信任 信息 
以 缓解 传统 方法 中 数据 稀疏 问题 和 冷 启 动 问题 ， 其 创 
新 点 是 在 传统 的 相似 值 计 算 过 程 中 添加 了 一 个 减少 误 
差 的 调节 因子 7,， 增强 了 相似 值 的 准确 度 。 

信任 信息 分 为 显 性 信任 和 隐 性 信任 , 本 文 只 对 显 
性 信息 进行 研究 。 将 信任 信息 “合并 ”到 推荐 系统 中 ， 
以 信任 为 基础 确定 目标 用 户 的 信任 用 户 , 如 果 该 目标 
用 户 没 有 相似 用 户 , 可 以 通过 确定 其 信任 用 户 预 测 目 
标 用 户 的 评分 从 信任 用 户 中 确定 部 分 相似 度 较 高 的 
用 户 作为 相似 用 户 ， 从 而 缓解 了 推荐 系统 的 稀 跑 性 和 
冷 启动 问题 。 本 文 提出 的 方法 有 效 地 应 用 信任 用 户 对 
目标 用 户 的 评分 信息 进行 补 值 , 然后 根据 补 值 后 的 评 
分 数据 进一步 完成 用 户 相似 性 计算 , 确定 最 相似 用 户 ， 
并 最 终 确定 该 项 目的 预测 评分 。 


3 ”研究 框架 与 方法 


本 文 提出 的 核心 思想 如 图 1 所 示 , 分 为 三 个 阶段 : 
阶段 一 主要 是 根据 用 户 信 任 关 系数 据 库 确定 信任 网 
络 , 在 目标 用 户 找 不 到 相似 用 户 的 情况 下 , 利用 “信任 
可 以 在 信任 网 络 中 传播 、 并 且 传 播 距 离 越 远 ， 信 任 值 
越 小 ”的 特点 计算 每 个 信任 用 户 的 信任 价值 ， 例 如 ， 
A 信任 »B,B 信任 >C ， 那 PA A 信任 B 信任 C, 


用 a 表示 目标 用 户 到 信任 用 户 之 间 的 传递 距离 ,每 经 
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过 一 次 传递 4 值 将 会 加 1。 则 上 述 例子 中 dyg=1, del, 
d4c72. d 值 对 信任 值 是 有 影响 的 , 4 越 大 ,信任 值 越 小 ， 
预测 的 精确 度 越 低 。 上 例 中 4 对 B 的 信任 值 大 于 4 对 
C 的 信任 值 ， 考虑 到 这 点 ,本 文 在 对 信任 用 户 进 行 得 
选 时 , 一 般 情 况 下 距离 d 设 定 为 不 大 于 3 的 值 。 需要 
说 明 的 是 , 这 里 也 有 笔者 的 一 个 小 创新 点 ,距离 为 3 
是 普遍 的 一 个 规定 ， 如 果 对 于 某 个 项 目 进 行 预 评分 
时 , 发 现 距 离 在 3 以 内 的 信任 用 户 的 数量 不 能 完成 阶 
役 三 的 方差 计算 时 (比如 当 距 离 在 3 以 内 的 评价 过 目 
标 项 目的 信任 用 户 只 有 一 个 时 ， 此 时 不 能 用 来 计算 
信任 用 户 的 评分 方差 ,应 扩大 距离 范围 ， 寻 找 更 多 评 
价 过 目标 项 目的 信任 用 户 完成 计算 )， 因 此 会 考虑 
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d >3 的 信任 用 户 进 行 预 评分 。 在 确定 了 信任 用 户 的 基 
础 上 ， 阶 段 二 找到 所 有 信任 用 户 以 及 目标 用 户 评价 
过 的 项 目 , 并 生成 一 个 项 目 集 ,对 于 每 个 目标 用 户 未 
进行 评价 的 项 目 , 根据 信任 邻居 的 评分 , 利用 一 个 带 
有 权重 的 均值 计算 作为 目标 用 户 的 评分 , 权重 和 阶 
段 一 中 信任 网 络 中 的 距离 有 关 。 这 样 直到 所 有 的 未 评 
分 项 目 都 有 一 个 估算 值 ， 就 形成 一 个 新 的 、 完 整 的 评 
分 数据 集合 。 阶段 三 将 针对 每 个 项 目的 估算 值 进行 方 
差 的 计算 , 通过 方差 计算 出 一 个 调节 因子 , 用 来 对 后 
续 的 相似 值 进行 调节 ,然后 根据 公式 计算 出 相似 值 ， 
根据 相似 值 确定 相似 用 户 , 根据 相似 用 户 进 行 评分 
估算 , 进而 实现 推荐 。 


阶段 一 


用 户 、 项 目 及 确定 每 个 信任 网 络 根据 信任 用 户 估算 形成 一 个 完整 
NE SEA RSEBE 项 上 ER X 个 p 介 段 二 


确定 相似 用 户 


计算 项 目 评分 
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根据 方差 生成 
相似 值 的 
调节 因子 


计算 目标 用 户 与 
每 个 信任 用 户 的 
相似 值 


阶段 三 


图 1 引入 用 户 信 任 关 系 后 的 协同 推荐 核心 框架 


4 研究 过 程 


本 文 预先 在 模型 中 约定 变量 定义 如 下 : 定义 全 部 
的 用 户 集合 为 U, 定义 全 部 的 项 目 集合 为 I 所 有 的 评 
分 集合 为 R。u,v 代表 用 户 ，i,j 代表 项 目 ，r 代表 评 
分 ,r 的 取 值 范围 为 [1, 5] 的 整数 ,这 样 ， 用 户 w 对 项 目 i 
的 评分 ， 可 以 用 一 个 三 维 的 数组 表示 为 (4,i,n;) ， 这 
样 求 目标 用 户 对 某 个 项 目的 评分 可 以 表示 为 (4, j,?) o 
另外 , 本 文 定义 信任 用 户 的 集合 为 TN, PAH u 的 
信任 用 户 集合 为 ZW。 如 果 目 标 用 户 z 信任 用 户 v, E 
么 ve7TN, 。 设 目标 用 户 u 对 用 户 v 的 信任 值 为 1， 
te {0,1} ,代表 用 户 w 对 用 户 v 的 信任 程度 ，t 值 越 大 
说 明 信 任 程度 越 大 , 评分 越 接近 。 这 里 说 明 一 下 ,用 户 
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u 本 身 也 是 自己 的 信任 用 户 ，u e TN,, ，4j =1。 除 此 
之 外 ， 用 户 w 评 分 过 的 项 目 集 合用 了 表示 ， 
I,- lil; e ie I), XB i 进行 过 评分 的 用 户 集 
AMU, KI, U, -(u|r,; eRueU}。 

推荐 问题 可 以 描述 为 : 给 定 一 组 用 户 评分 
(u, i, r, i) 和 一 组 用 户 的 信任 (w,v,h,)， 预测 一 个 最 佳 
TUM (u, jâ) 为 一 个 目标 用 户 对 目标 项 目 j 的 评分 。 
通常 通过 预测 精度 评价 推荐 质量 , 即 预测 结果 和 真正 
喜好 的 接近 程度 。 
41 确定 目标 用 户 信任 用 户 集合 
通过 筛选 确定 目标 用 户 的 信任 用 户 。 如 果 一 个 用 
户 评价 积极 , 那么 确定 该 用 户 的 相似 用 户 相 对 容易 ， 


但 是 ,如 果 用 户 评价 数据 过 少 , 这样 他 的 相似 用 户 往 
往 很 难 确 定 。 因 为 不 活跃 用 户 的 相似 用 户 数量 大 多 数 
不 能 满足 预测 评分 要 求 的 数量 。 利 用 相似 用 户 佑 算出 
的 结果 肯定 要 比 利 用 信任 用 户 计算 的 结果 更 准确 。 本 
文 研究 的 是 后 者 ， 即 当 目 标 用 户 的 相似 用 户 的 数量 过 
少时 , 考虑 其 信任 用 户 进 行 推荐 。 

一 般 定义 参与 评分 项 目 数 少 于 5 的 为 不 积极 用 户 ， 
对 不 积极 用 户 将 寻找 其 信任 用 户 。 虽 然 不 积极 用 户 的 
信任 信息 的 可 用 性 是 相对 有 限 的 , 但 信任 可 以 随 着 信 
任 的 网 络 传播 , 即 如 果 4 信任 B, B 信任 C, 那么 4 信 
任 C ， 即 一 个 不 活跃 的 用 户 只 要 有 一 个 信任 用 户 , 那 
么 就 可 以 找到 满足 数量 条 件 的 更 多 的 信任 用 户 (间接 
信任 用 户 )。 从 第 3 节 可 以 看 出 ，d 值 对 信任 值 1 值 是 
影响 的 ，a 越 大 ，t 越 小 ,预测 的 精确 度 越 低 。 在 本 
文中 , 关于 4 对 1 的 影响 , 笔者 定义 两 者 是 反比 关 
系 。 即 : 


1 


ly zs d, , (1) 
所 以 信任 用 户 的 确定 过 程 如 下 : 
TU, - (v|d,, <d,veU} (2) 


需要 说 明 : 关于 公式 (1) 和 公式 (2), 根据 六 度 分 隔 
理论 , 在 信任 网 络 中 任意 两 个 用 户 可 以 用 小 于 6 的 步 
又 连接 。 所 以 一 般 在 预测 之 前 都 要 对 d 设 定 一 个 姜 值 。 
本 文 相关 计算 中 ,4d x3. 

4.2 ”形成 完整 的 评分 数据 集 

在 确定 了 信任 用 户 后 , 可 以 确定 一 些 评分 项 目 作 
为 模型 计算 的 候选 项 目 。 

(1) 4E XO EI E T, 

定义 目标 用 户 w 的 所 有 信任 用 户 (包含 目标 用 户 
本 身 ) 评 价 过 的 项 目 为 氏 。 

(2) 定义 评分 集 元 ， 

定义 根据 所 有 的 信任 用 户 来 确定 目标 用 户 w 对 项 
Hj 的 评分 为 ;。 


È tus Tj 


m veTN, 
£T 3) 
SEU Ashes 


veTN, 
(3) ARRIR REG 
利用 皮尔 森 相 关系 数 计 算 用 户 相似 性 的 公式 如 下 。 
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"o [Y G-RY | DOS 


iel, , iel,» 

其 中 ，s, , e[-11 。sw=1， 表 明 信 任 用 户 与 目标 用 
户 喜 好 完全 一 致 ; s,,>0, 表明 信任 用 户 v 和 目标 用 户 z 
之 间 有 积极 的 联系 ; sww<0, 表明 信任 用 户 v 和 目标 用 户 
u 之 间 有 消极 的 联系 , 对 方法 无 意义 ， 本 文 不 考虑 。 

文献 [15] 在 传统 的 皮尔 森 相 关系 数 计算 中 加 入 因 
To; P, 含义 为 : 在 确定 目标 用 户 的 信任 用 户 的 前 
提 下 ,针对 某 一 个 待 评分 的 项 目 , 挑选 出 对 该 项 目 评 
分 的 信任 用 户 , 根据 每 个 信任 用 户 的 打分 情况 将 其 分 
为 积极 用 户 和 消极 用 户 , 积极 用 户 和 消极 用 户 的 划分 
方法 为 : 在 一 个 项 目 i 中 , 在 所 有 信任 用 户 评分 中 确定 
一 个 中 位 数 rus (或 许 是 均值 ), 评分 大 于 me 为 积极 用 
P, 评分 小 于 rues 为 消极 用 户 。 然 后 将 积极 用 户 数 量 
和 消极 用 户 数量 经 过 公式 量化 后 添加 到 相似 值 的 计算 
中 ,这 样 可 以 在 计算 目标 用 户 评 分 时 , 为 评分 的 积极 
与 否 的 判定 中 , 添加 制衡 因子 , 减少 概率 误差 。 该 方法 
的 不 足 在 于 ， 当 参与 评分 信任 用 户 全 部 为 积极 用 户 (或 
者 全 部 为 消极 用 户 ) 时 , 调节 因子 不 会 起 作用 , 假如 全 
部 为 积极 用 户 ( 消 极 用 户 ), 而 目标 用 户 实际 的 偏好 是 
消极 的 (积极 的 )， 此 时 在 一 定 程度 上 对 计算 结果 会 有 
误导 作用 。 

(4) 改进 皮尔 森 相关 系数 

针对 以 上 问题 ,本文 将 公式 (4) 进 一 步 优化 : 

p» 7], i (5, ; =T; Xni =r) 


iel,, 


Suv 
I| nmi EN i -ny 


iel, s tel, , 


E, sy, e[-1,1] 。% ,=1， 表 明 信 任 用 户 与 目 
标 用 户 喜好 完全 一 致 ; sy ,>0， 表 明 信 任 用 户 v“ 和 目标 
用 户 u 之 间 有 积极 的 联系 ; % ,<0， 表 明 信 任 用 户 和 
目标 用 户 u 之 间 有 消极 的 联系 ， 对 方法 无 意义 ,本 文 
不 考虑 。 

(5) 选 定 调节 因子 思 ， 


Tui = I= E s (6) 
7 含义 如 下 : 确定 信任 用 户 , 针对 待 评分 项 目 确 


定 对 其 进行 过 评分 的 信任 用 户 ; 对 所 有 参与 评分 的 信 
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任用 户 的 评分 进行 方差 分 析 ; 将 其 添加 到 相似 值 的 计 
算 中 。 该 调节 因子 分 别 对 每 个 评分 项 进行 方差 分 析 ， 
方差 降低 了 误差 也 就 意味 着 在 进行 相似 值 计算 之 前 ， 
针对 每 个 项 目的 评分 都 做 了 减少 误差 的 计算 ,这样 再 
计算 相似 值 就 大 大 减少 了 数据 来 源 本 身 带 来 的 误差 ， 
增强 了 相似 值 的 准确 度 。 其 中 2 ;是 指 : 对 于 目标 用 
P u 未 评价 的 项 目 i, 利用 信任 用 户 先 计算 出 信任 用 
户 的 均值 作为 w 对 项 目 i 的 估算 值 , 然后 计算 出 其 方 
差 ， 作 为 误差 分 析 的 项 。 X 为 信任 用 户 中 评价 过 当前 
项 目的 其 他 用 户 的 数量 。 


v 2 
2. veTN, (5; 7 元 7 


2 n-l 
sal 7 
E ui N -1 ( ) 


由 公式 (6) 和 公式 (7) 可 以 看 出 , 方差 的 存在 本 身 
就 起 到 减少 误差 的 作用 , 方差 越 大 ,计算 出 来 的 调 
节 因 子 越 小 。 公 式 (5) 在 考虑 到 信任 用 户 的 数量 对 模 
型 影响 的 同时 ,也 考虑 到 信任 用 户 的 评分 对 模型 的 
影响 。 

4.3 ”评分 估算 

(1) 确定 最 相近 的 信任 用 户 MTU, 

根据 公式 (5) 计 算 所 有 信任 用 户 和 目标 用 户 w 的 相 
似 性 ， 再 从 信任 用 户 中 选 出 满足 条 件 的 最 信任 用 户 
MTU。 确 定 MT 是 给 %, 设 定 一 个 净值 和 %, 在 信任 用 
户 中 选择 所 有 的 s' ,大 于 的 用 户 作 为 MTU, B: 

MTU, = £v | Spv > Ov EU} 

(2) 计算 目标 用 户 u 对 未 评分 项 目 j 的 评分 

结合 确定 的 MTU,, 根据 公式 (3) 计 算出 的 相似 值 ， 
可 以 对 要 评分 的 项 目 进行 评分 计算 。 评 分 结果 六 ,的 
计算 方法 如 下 : 


广 | ”Vi 人 人 [人生 甘 日 工 | 
ChinaXiv C FRHTU 


O BWER —— 5 0 05 0 0 0000000 


LA 
D P 
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hs " (8) 
2 veMTU, Suv 
就 此 , 得 出 模型 的 最 终结 果 。 


5 应 用 算 例 


应 用 一 个 算 例 , 利用 上 面 介绍 的 方法 循序 渐进 地 
对 每 一 步 进行 运 算 , 最 后 生成 项 目 预 测评 分 。 需 要 说 
明 的 是 , 算 例 的 选取 是 有 科学 的 方法 的 ,并 不 是 随手 
写 的 儿 个 关系 表 和 评分 表 ， 而 笔者 的 思维 并 没有 专业 
人 士 全 面 周到 ,各 个 方面 都 要 求 不 偏离 实际 ， 因 此 本 
文 的 算 例 是 笔者 在 阅读 了 大 量 相关 文献 后 ,其 酌 借 用 
的 经 典 算 例 中 。 

在 该 算 例 中 ， 有 9 个 用 户 , 9 个 项 目 , 分 别 用 ww 和 
i 表示, HEP k, j [9]， 每 个 用 户 对 每 个 项 目的 评分 
为 1.j, rwje[1,5] 且 为 整数 ， 如 表 1 所 示 。 同 时 每 个 用 户 
同 其 他 用 户 可 能 存在 信任 关系 ,如 表 2 Bron, 其 中 坚 
列表 示 信 任用 户 , 横行 表示 被 信任 用 户 , 例如， 横行 
为 uw1， 竖 列 为 ww 的 值 为 1， 可 以 写 为 (wi, w, 1), 表示 
信任 wu,。 在 该 算 例 里 要 预测 的 是 对 i 的 评分 。 

MK 1 中 可 以 看 出 ,一 只 对 六 进行 了 评分 ,上 且 分 数 
为 5。 从 信任 网 络 ( 表 2) 中 看 出 , ui 的 直接 信任 用 户 为 
uz 和 us, 也 就 是 说 d(uu,)-Ld(u,u,) 21, 本文 设 在 
信任 网 络 中 , 与 信任 用 户 距 离 4 为 1 的 用 户 为 一 级 信 
任用 户 , d 为 2 的 用 户 为 二 级 信任 用 户 , 例如 
d(uy,u4) 7 d(uj,u5) - d(u5,u4) - 2, 依次 类 推 ,qd 为 3 的 
用 户 为 三 级 信任 用 户 。 而 信任 是 有 方向 的 , u 信任 uw 
并 不 代表 u 也 信任 u, 所 以 在 信任 网 络 中 , 信任 关系 
的 传播 是 单 向 的 。 


表 1 ”用户 对 项 目的 评分 


Ul 3 

us 4 3 1 

ua4 3 5 2 

us 4 4 3 3 

Uus 3 3 5 5 

U7 5 4 
ug 4 2 1 

uo 4 5 5 


数据 分 析 与 知识 发现 


Wi 
N 
T 
er 
d 
T 
N 
zÍ 
E 
IF 
Hm 
n 


ui u» us U4 


Us uo U7 ug Ug 
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添加 信任 方法 如 下 : 
(1) 通过 信任 在 信任 网 络 中 可 以 传播 的 性 质 确定 
信任 用 户 。 根 据 表 2, 确定 信任 值 可 通过 公式 (1) 推 断 


中 不 属于 目标 用 户 ui 的 信任 用 户 。 但 是 , 距离 为 3 是 
普遍 的 一 个 规定 ， 如 果 对 于 某 个 项 目 进行 预 评分 时 ， 
发 现 距 离 在 3 以 内 的 信任 用 户 的 数量 不 能 完成 方差 计 


出 来 , 结果 如 表 3 所 示 。 作 为 一 名 活路 用 户 , u 总 是 完 


全 信任 它 自己 , Hu, -10 (表示 百 分 百 信任 ), 在 此 
基础 上 , 进行 ui 与 其 他 信任 用 户 的 信任 值 的 计算 。w， 
53 是 目标 用 户 ui 的 一 级 信任 用 户 (4 值 都 为 1), 这 里 他 
们 的 信任 价值 也 为 1。 对 于 用 户 us 距离 ui 的 最 小 距 
离 d=2， 即 最 短 的 传播 路 径 为 ul >u (u4) — uy， 其 他 
传播 路 径 , 例如 , wu >u, > uy —u,, d=3>d=2, 
在 这 里 选择 d 最 短 的 路 径 计 算 信 任 值 :+。 所 以 
tau, =1/2=0.5 。 最 短 的 距离 到 us 为 : d(u us) = 
d(u,u4)* d(u4,u) 241-23, Slug 的 距离 以 此 类 推 , 
虽然 该 传播 距离 可 以 计算 , 但 是 d(w,ue)=4, 前 面 已 
经 声明 , 本文 的 传播 距离 设 定 为 4<3。 所 以 us ERIX 


算 时 (比如 当 距 离 在 3 以 内 的 评价 过 目标 项 目的 信任 用 
户 只 有 一 个 时 ， 此 时 不 能 计算 信任 用 户 的 评分 方差 ， 
应 扩大 距离 范围 ， 寻找 更 多 评价 过 目标 项 目的 信任 用 
户 完成 计算 ), 一 般 会 考虑 4d >3 的 信任 用 户 进行 预 评 
分 。 例 如 , 本 算 例 中 , 对 在 ; 的 计算 中 ,因为 TU 中 
只 有 ws 对 i 有 评分 , 所 以 在 计算 调节 因子 的 时 候 借助 
距离 wu 为 4 的 uo 的 评分 , 结果 如 表 4 所 示 。 可 以 得 到 
uy 的 信任 用 户 集合 TU, = fu us us uas ug) o 

Q) 合并 信任 用 户 的 评分 , 结果 如 表 4 所 示 。 此 过 
程 一 直 持续 到 至 少 所 有 信任 用 户 所 参与 的 评分 项 目 ( 即 
IERE, 则 一 个 新 的 评分 配置 文件 形成 。 合 并 后 
的 目标 用 户 ui 的 评分 材料 比 原 始 数据 要 完整 得 多 。 


表 3 ”wu 和 信任 网 络 中 的 信任 用 户 的 信任 值 


ui u» u3 U4 us ug U7 ug UTI 
d 0 1 1 2 3 4 
faluk 1.00 1.00 1.00 0.50 0.33 0.25 


表 4 合并 后 的 ui 的 评分 


is is i is fl 


2n 4.33 4 5 3 
as, 0.29 1.00 1.00 0.29 


2.73 1.71 
0.81 0.67 


(3) 利用 前 面 新 的 评分 材料 , 分 别 计算 目标 用 户 
uy 和 每 个 信任 用 户 wi 的 相似 值 s (公式 (4))、s' (添加 调 
节 因子 cj 的 相似 值 )、s" (公式 (5)), 结果 如 表 5 所 示 。 
由 结果 看 出 uo, us, ua, us, Ug 与 目标 用 户 ui 的 相似 值 大 


FO, 且 比 较 高 ,因为 要 估算 的 是 wi 对 is 的 评分 , 而 3 
并 没有 对 项 目 i 进行 评分 ， 所 以 us 并 不 在 集合 中 。 最 
相似 用 户 的 集合 NV = fu, Ug, Us, Ug} o HEZ IR(8) 
计算 最 后 的 评分 结果 。 
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R5 u 和 信任 用 户 的 相似 值 
Ul U2 U3 U4 us ug U7 Us uo 
1.0 0.870 0.992 0.910 0.910 —0.910 1.0 —0.950 
1.0 0.660 0.995 0.980 0.840 —0.780 0.990 —0.980 
S" 1.0 0.699 0.955 0.985 0.910 —0.828 0.982 —0.968 


3x0.87+2x0.91+3x0.91+2x1 
H 0.87-0.914-0914.1 
z 3x0.699+2x0.985+3x0.910+2x0.982 
0.699 + 0.985 + 0.910 + 0.982 
需要 说 明 : MXE A u 的 信任 用 户 集 合 为 
TU, = (uy us us ua us ug) , PELAR 5 中 计算 的 相似 值 
RE us us us us Rug 等 5 个 信任 用 户 的 相似 值 即 可 ， 
包含 us Fl us 的 相似 值 是 为 了 与 信任 用 户 形成 对 比 。 因 
此 表 5 不 包含 万 的 对 应 值 。 


6 结果 及 讨论 


为 了 验证 该 方法 的 有 效 性 ， 对 一 个 实际 数据 集 进 
行 实验 。 具 体 来 说 ,目的 是 找 出 与 其 他 同类 方法 相 比 ， 
本 文 方 法 的 性 能 如 何 ; 信任 传播 对 本 文 方法 和 其 他 方 
法 的 影响 。 
6.1 实验 设置 

在 实验 中 ,比较 了 本 文 的 方法 与 文献 [15] 的 添加 
信任 的 协同 过 滤 方 法 (CCF) 以 及 传统 的 基于 用 户 的 协 
同 过 滤 方 法 (CF) 的 性 能 。 

传统 的 协同 过 滤 方 法 使 用 皮尔 森 相 关系 数 ( 简 称 
PCOC) 测 量 计算 用 户 相似 度 ， 选 择 相似 度 高 于 阔 值 的 用 
户 呈 1。 并 使 用 他 们 的 评分 生成 项 目 预测 。 在 这 项 工 
作 中 ,所 有 方法 的 阔 值 设置 为 0。 
6.2 ”评估 指标 

(1) 评估 指标 MAE 

平均 绝对 误差 或 M4E , 衡量 预测 接近 实际 的 程度 : 


MAE = X = 
N 


PR zm 2.48 


m 2.45 


f(s"), i 


(9) 


其 中 ,NN 是 测试 级 别 的 数量 。 因此 ，M4E 值 越 小 ， 
预测 越 接 近 实 际 。 文 献 [20] 根 据 均 方 根 误差 (RMAE) XÉ 
义 测量 精度 ,笔者 定义 反 向 MAE I iMAE 作为 通过 等 
级 标 度 范围 归 一 化 的 预测 精度 : 

pani (10) 


Tnax 一 7min 


大 额定 值 和 最 小 额定 值 。 较 高 的 PWM4 值 表示 更 好 的 
预测 精度 。 

(2) 评估 指标 Fl 

同时 考虑 到 评估 的 准确 性 和 禾 盖 率 ，F 度量 或 
F1 可 以 衡量 整体 绩效 ,准确 性 和 覆盖 率 都 是 预测 性 能 
的 重要 措施 。 根 据 文献 [20]，F 度量 计算 方法 如 下 : 

py- Z MAE: RC (1) 
iMAE + RC 

因此 ，F-measure 反映 了 准确 性 和 和 覆盖 率 之 间 的 
平衡 。 
63 ”结果 与 分 析 
通过 算 例 利 用 以 上 的 两 个 指标 进行 度量 , 预测 性 
能 如 表 6 所 示 。 

表 6 算 例 上 的 预测 性 能 表 


指标 CF CCF ECF 
iMAE 0.9985 0.9986 0.9987 
FI 0.7994 0.7995 0.7996 


(说 明 : ECF 是 指 本 文 加 入 调节 因子 mi 的 协同 过 滤 方 法 。) 


因为 本 算 例 中 数据 集 较 小 , 所 以 计算 出 的 两 个 指 
标 值 差距 并 不 明显 , 但 是 对 于 单位 为 1 的 各 指标 来 讲 ， 
这 样 的 差距 虽然 渺小 , 但 还 是 具有 一 定 的 代表 性 。 后 
期 笔者 会 用 实际 数据 集 进行 实验 , 以 完善 本 文 方法 。 
在 传统 的 协同 过 滤 算 法 中 ,如 果 目 标 用 户 没有 相似 用 
户 则 无 法 对 其 进行 评分 预测 ， 本 算 例 中 所 有 用 户 的 关 
系 都 是 信任 关系 ,并 不 是 相似 关系 , 所 以 以 上 关于 
CF 的 各 个 指标 的 计算 的 结果 都 是 用 本 文 方法 确定 信 
任用 户 作为 相似 用 户 后 进行 预测 的 。 从 表 6 两 个 指标 
可 以 看 出 , 本文 方法 获得 了 更 好 的 准确 性 和 覆盖 率 。 
传统 的 CF 方法 和 优化 后 的 方法 比较 , 在 误差 项 分 析 
和 预测 准确 性 上 都 是 有 微小 差距 的 。 而 和 CCF 方法 相 
比较 , 虽然 在 误差 分 析 上 差异 并 不 大 , 但 是 在 整体 绩 
效 的 衡量 中 , ECF 方法 略微 胜 于 CCF 方法 。 

相对 于 其 他 方法 , 本 文 方法 有 两 个 明显 的 优势 。 


HP, nas P nas 分别 是 由 推荐 器 系统 定义 的 最 


EN 数据 分 析 与 知识 发 现 


首先 ， 它 可 以 有 效 地 改善 数据 稀 玻 性 和 冷 启 动 问题 。 
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这 两 个 问题 的 本 质 是 两 个 用 户 共同 评价 过 的 项 目 很 
少 , 想 要 准确 地 计算 用 户 相似 性 , 并 因此 找到 可 靠 的 
类 似 的 用 户 更 加 困难 ， 或 者 ， 两 个 用 户 之 间 根 本 没有 
共同 评价 过 的 项 目 ， 导 致 无 法 计算 用 户 相 似 值 。 针 对 
上 述 问题 , 本 文通 过 应 用 信任 邻居 的 评分 形成 一 个 新 
的 评分 材料 代表 目标 用 户 的 偏好 。 对 于 目标 用 户 来 说 , 
新 形成 的 评分 材料 比 原始 的 评分 材料 覆盖 了 更 多 项 
H, 因此 ,在 用 户 相 似 性 方面 , 更 多 的 相似 用 户 将 会 
被 识别 , 特别 对 于 那些 有 很 少 评分 或 者 没有 评分 的 不 
活跃 用 户 来 说 , 更 有 意义 。 前 面 的 例子 也 说 明 考虑 评 
分 估算 标准 差 的 相似 值 计 算 比 其 他 的 方法 更 可 靠 。 
结果 表明 , 本 文 的 方法 能 有 效 缓解 数据 稀 玻 问题 
和 冷 启 动 问题 。 男 外 ， 当 一 个 不 活跃 用 户 或 者 一 个 新 的 
用 户 从 来 没有 参与 过 任何 项 目的 评价 时 , 但 是 已 经 指 
明了 信任 用 户 , 这 时 可 以 将 这 些 信任 用 户 的 评分 进行 
合并 形成 一 个 新 的 评分 数据 集 , 作为 目标 用 户 的 评分 。 


7 结 语 


本 文 提 出 一 种 将 可 信和 邻居 纳入 传统 协同 过 滤 技 术 
的 新 方法 ， 旨 在 解决 传统 推荐 系统 存在 的 数据 稀 琉 和 
冷 启 动 问题 。 纳 入 信任 邻居 的 评分 ,以 补充 和 表示 目 
标 用 户 的 偏好 ,进而 实现 下 一 步 评 分 预测 。 在 此 基础 
上 通过 一 个 算 例 对 数据 集 进行 检验 ,结果 表明 , 在 准 
确 性 和 整体 性 能 方面 , 本 文 方法 都 取得 了 微小 的 进 
步 ,此 外 , 通过 在 信任 网 络 中 传播 信任 , 可 以 实现 更 好 
的 预测 性 能 。 
后 续 工作 中 , 将 采用 真实 网 站 上 的 数据 集 对 该 方 
法 进一步 测试 ,验证 其 在 真实 环境 下 的 可 行 性 , 并进 
一 步 推 断 用 户 行为 的 隐 性 信任 , 增强 信任 关系 在 协同 
过 滤 推 荐 中 的 适用 性 。 这 里 说 明 一 下 对 实际 数据 集 的 
几 点 要 求 : 

(1) 数据 集 包 含 的 样本 数量 要 足够 大 ， 最 好 是 千 
或 万 的 数量 单位 ; 

(2) 数据 集 要 包含 一 定数 量 的 不 积极 用 户 ,这 些 不 
积极 用 户 中 有 一 部 分 是 有 很 少 或 者 没有 相似 用 户 的 ; 

(3) 最 重要 的 一 点 , 数据 集中 的 用 户 之 间 存 在 信 
任 关系 。 
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Improving Collaborative Filtering Recommendation Based on Trust 
Relationship Among Users 


Xue Fuliang Liu Junling 
(Business School, Tianjin University of Finance & Economics, Tianjin 300222, China) 


Abstract: [Objective] This paper tries to improve user similarity calculation in collaborative filtering recommendation 
with trust relationship among them. Once there is no similar user for members of the target group, we recommend the 
most trusted ones as the similar users. [Methods] First, we retrieved the trusted users as candidates for the similar users. 
Second, we combined the trusted and the target users to form a project score set, and evaluated the estimated value of 
the projects receiving no comment from the target group. Third, we quantified the trust relationship among users to 
form a regulation factor. Finally, we calculated the adjustment factor and created the similarity cluster of users, and 
made cross-recommendation among similar users. [Results] The collaborative filtering recommendation method based 
on trust relationship had better performance than traditional ones. [Limitations] Only examined the new method with 
one sample dataset with trusted relationship. More research 1s needed to test the proposed method with other datasets. 
[Conclusions] The trusted relationship among users contains valuable information, which could be used to calculate 
user similarity for collaborative filtering recommendation services, and then effectively solves the sparsity and cold 
start issue. 
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